昨天我在Colab上跑出第一個生成結果,輸入Hello, AI world!,模型居然幫我接出了一大段電影評論。雖然看起來有點跳Tone,但這其實就是大語言模型(LLM)最核心的運作方式。
文字接龍的原理
想像我們在玩成語接龍,每個人輪流講一句話,規則就是「要根據前一句來決定下一句」。
而LLM也是類似的,它不是真的理解語意,而是 透過機率去預測下一個最可能出現的字。
當我輸入Hello, AI world!,模型就會根據它訓練時看過的資料,去猜接下來最常出現的文字是什麼。
這個過程會一個詞一個詞地生成,就像在不停玩文字接龍。
所以才會跑出一大段電影評論,因為在模型的記憶裡,類似開頭後面可能常常接的是影評文章的語氣。
LLM的定義
LLM全名是Large Language Model,中文叫「大語言模型」。
它的關鍵特色有:
從GPT-2到ChatGPT
昨天我使用的GPT-2,就是最早期比較有名的LLM之一。它已經能生成流暢的英文文章,但也常常出現跳Tone或重複的內容。
後來更大的模型(GPT-3、GPT-4、Claude、Gemini…)出現,因為規模更大、資料更多、訓練方式更進步,所以能夠生成更合理、更貼近人類語言的文字。
大語言模型(LLM)可以想成是一個超級強大的文字接龍機器。它並不是在真正理解,而是在根據大量資料去推算下一個字最有可能是什麼。
昨天看到GPT-2把Hello, AI world! 接成一篇電影評論,看似奇怪,其實正好展現了它的本質。這種接龍能力,就是後續各種應用的基礎。
明天我會更進一步,從LLM 架構開始介紹它背後的關鍵技術——Transformer。